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摘 要 : [目的 /意义 ] 构建 面向 典籍 文本 的 语义 本 体 , 能 够 促进 典籍 文本 的 挖 气 与 分 析 。 然 而 由 于 典籍 文本 与 现代 文本 
在 语法 上 存在 较 大 差异 ,给 面向 典籍 的 语义 本 体 构 建 带 米 了 困难 。|[ 方 法 /过 程 ] 本 文 运用 自然 语言 处 理 技术 探 
讨 针对 先秦 典籍 的 本 体 构 建 方法 。 以 国际 上 文化 遗产 领域 通用 的 CIDOC CRM 为 框架 ,设计 先秦 典籍 本 体 模 型 。 
针对 典籍 文本 内 容 的 特点 及 向 法 特征 ,将 规则 抽取 与 条 件 随机 场 方法 相 结 合 ,提出 一 套 本 体 实例 自动 获取 技术 ， 
并 以 《 左 传 ) 为 实验 语 料 进 行 测试 。[ 结果 /结论 ] 实验 表明 ,本 文 所 提出 的 本 体 实例 抽取 技术 能 够 较 好 地 提高 面 
向 典籍 文本 的 本 体 构 建 效 率 。 基 于 规则 的 本 体 实例 抽取 实验 下 值 在 93% 左右 ,基于 条 件 随机 场 的 本 体 实例 抽取 
最 佳 特征 模板 的 了 值 为 82.51% 。 在 本 体 实例 获取 中 ,词性 信息 和 位 置信 息 具 有 重要 作用 。 
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左 传 本 体 构 建 ”条件 随机 场 ” 规 则 匹配 


> 中 华文 明 五 千年 来 一 脉 相 承 、 从 未 中 断 ,其 中 一 个 
重要 的 原因 就 是 中 华 民 族 拥有 各 个 历史 时 期 浩如烟海 
的 典籍 号。 将 蕴含 在 典籍 中 的 知识 形式 化 、 模 型 化 描 
述 疫 关联 关系 揭示 ,不 仅 有 利于 与 传统 文化 有 关 的 知 
调 乓 识别 、 理 解 和 共享 ,而 且 有 助 于 推动 典籍 文本 的 深 
度 次 据 及 人 文 计算 研究 的 开展 。20 世纪 前 半 叶 ,哈佛 
燕 训 学 社 引 得 编撰 处 编 繁 了 书本 式 逐 字 词 古籍 索引 
《汉学 引得 丛刊 ) ,将 典籍 知识 的 描述 从 文献 单元 深入 
至 词汇 单元 。 本 体 等 语义 网 技术 的 发 展 为 典籍 文本 的 
知识 组 织 提供 了 新 的 活力 。 学 界 开展 了 诸如 家 谱 资 源 
描述 本 体 模型 中 “二 十 四 史 ” 本 体 中 中 医 古 籍 本 
体 上 等 相关 的 研究 。 

总 体 来 说 ,构建 面向 典籍 的 知识 本 体 ,虽然 已 有 相 
关 的 研究 ,但 仍然 面临 诸多 的 困难 。 一 方面 ,仍然 缺少 
面向 典籍 文本 的 顶层 语义 描述 框架 ; 另 一 方面 ,典籍 的 
语法 和 句法 同 现代 语言 存在 较 大 差异 ,针对 典籍 文本 
的 概念 及 概念 关系 的 挖掘 方法 仍然 需要 进一步 深入 研 
究 。 在 此 背景 下 ,本 文 尝试 通过 复 用 已 有 本 体 设计 具 
有 较 好 通用 性 的 本 体 语义 框架 ,继而 重点 研究 本 体 实 


例 的 获取 方法 。 结 合 典籍 文本 的 内 容 特点 ,笔者 提出 
将 规则 抽取 与 条 件 随 机 场 识 别 相 结合 ,最 大 限度 利用 
古 汉 语 中 的 固有 表述 规则 进行 本 体 实例 的 抽取 ,并 以 
《 左 传 》 为 实验 语 料 对 本 文 提出 的 方法 进行 测试 。 


2 研究 综述 


近年 来 ,典籍 文本 的 数字 化 已 经 取得 了 较为 丰硕 
的 成 果 , 在 此 基础 上 ,学 者 们 围绕 古 汉 语文 本 的 自动 分 
词 .词性 标注 、 命 名 实体 识别 与 词义 研究 等 开展 了 许多 
探索 性 的 研究 ,并 取得 了 一 批 研 究 成 果 " 。 

分 词 方面 ,基于 条 件 随 机 场 模 型 的 古文 自动 分 词 
方法 取得 了 较 好 的 效果 ,以 《重子 兴 左 传 兴 汉 书 兴 诗 
经 》 等 典籍 为 语 料 进行 的 相关 实验 表明 ,分 词 的 最 好 结 
果 下 值 可 接近 98%'" 。 词 性 标注 方面 ,学 者 们 先后 在 
《 楚 辞 兴 明 史 兴 左 传 兴 论语 》 等 典籍 文本 中 进行 了 相 
关 的 实验 研究 并 取得 了 较 好 的 效果 ,其 中 效果 最 好 的 
实验 调和 平均 数值 接近 95%"”。 命名 实体 识别 方 
面 的 研究 成 果 比 分 词 与 词性 标注 方面 的 成 果 相 对 较 少 
一 些 , 有 学 者 研究 了 从 《重子 兴 左 传 兴 二 十 四 史 兴 三 
国志 》 等 典籍 中 抽取 人 名 、 地 名 及 时 间 等 命名 实体 的 方 
法 ,还 有 学 者 研究 了 方志 中 地 名 、 物 产 等 名 词 的 抽 
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取 "" 。 词 义 研究 继承 和 利用 了 自动 分 词 .词性 标注 的 
成 果品 ,也 为 句法 分 析 、 语 义 标 注 提供 了 研究 基础 ,学 
者 们 借助 多 种 技术 方法 ,实现 了 古 汉语 的 词义 消 歧 及 
少量 浅 层 句法 标注 研究 。 

从 上 述 研究 可 以 看 出 ,目前 针对 古文 的 自动 分 词 
和 词性 标注 等 取得 了 一 定 的 成 果 , 但 如 何 更 好 地 应 用 
这 些 成 果 , 在 从 典籍 文本 中 抽取 命名 实体 及 实体 关系 
的 基础 上 ,构建 领域 本 体 等 语义 化 描述 工具 ,推动 典籍 
文本 的 深入 挖掘 ,仍然 需要 开展 更 进一步 的 研究 。 

目前 本 体 语义 框架 的 建立 都 需要 人 工 参与 。 如 何 
在 已 建立 的 本 体 语义 框架 下 ,采用 自然 语言 处 理 、 机 器 
学 习 等 技术 从 语 料 中 自动 抽取 相关 术语 及 属性 关系 ， 
完成 本 体 实例 的 自动 学 习 和 获取 是 实现 本 体 应 用 的 重 
要 途径 '" 。 近 年 来 ,本 体 自动 构建 的 研究 产生 了 一 系 
列 的 成 果 。 一 些 学 者 基于 维基 百科 、WordNet 等 资源 
构 兢 了 DBPedia Ontology .YAGO 等 大 型 通用 本 体 。 以 
导 询 科学 ,地 理科 学 为 代表 的 自然 科学 领域 已 经 有 较 
为 5 后 型 的 实用 化 领域 本 体 , 如 GeoNames Ontology 、 The 
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Drugy Ontology、UMLS SemNet、Gene Ontology 及 


SNOMED 等 "。 而 在 人 文 社会 科学 领域 中 ,部 分 学 者 
在 思 史 学 .哲学 等 领域 尝试 开展 诸如 三 国志 本 体 、 国 共 
馈 己 本体、 国史 本 体 、 二 十 四 史 本 体 及 哲学 本 体 的 构建 
研究 ”"。 上 海 图 书馆 针对 馆藏 家 谱 资 源 设计 了 本 
体 模型 呈 ,中 华 书局 主持 开发 了 “二 十 四 史 " 本 体 对 人 
答 屯 点 ,时 间 等 进行 语义 化 组 织 " ,中国 中 医科 学 院 
的 理 医 古籍 知识 库 则 从 中 医 古籍 中 抽取 知识 元 并 建立 
子 知识 元 间 的 属性 关系 "。 学 者 们 还 尝试 将 元 数据 、 
本 亿 技 术 应 用 于 戏剧 、 民 俗 等 领域 的 信息 资源 描述 和 
组 织 “。 

总 体 来 说 , 自然 科学 领域 概念 及 概念 之 间 的 关系 
较为 明确 ,大 型 的 ,实用 化 的 领域 本 体 自动 构建 发 展 较 
为 迅速 ,而 人 文 社会 科学 领域 存在 顶层 语义 框架 难以 
界定 、 概 念 关系 较为 灵活 等 特性 ,大 规模 的 、 实 用 化 的 
领域 本 体 比较 少见 。 因 此 ,本 文 将 针对 典籍 文本 的 内 
容 ,探讨 建立 规范 的 ,移植 性 好 的 本 体 框架 以 及 相应 的 
本 体 实例 自动 获取 方法 与 技术 。 


3 ”面向 先秦 典籍 的 本 体 模型 构建 


3.1 先秦 典籍 本 体 构 建 的 难点 

同 已 有 的 本 体 构建 方法 与 技术 相 比 ,先秦 典籍 本 
体 的 构建 存在 以 下 两 方面 的 难题 。 
3.1.1 本 体 语义 框架 的 设计 

先秦 是 中 国 传 统 思 想 和 文化 发 源 的 重要 时 期 , 先 


秦 典 籍 记录 了 中 华 民族 思想 理念 ,传统 美德 和 人 文 精 
神 等 。 因 此 ,典籍 中 蕴含 的 知识 点 类 别 广泛 且 语 义 关 
系 复 杂 。 如 何 设计 一 个 本 体 语 义 框 架 ,对 其 中 蕴含 的 
知识 进行 形式 化 .模型 化 描述 及 关联 关系 揭示 ,这 是 先 
秦 典 籍 本 体 构建 所 面临 的 难题 之 一 。 

在 本 体 模型 的 设计 方面 ,为 了 能 够 实现 对 先秦 典 
籍 中 蕴含 知识 点 的 理解 和 共享 ,笔者 参考 了 大 量 已 有 
本 体 项 目 。 其 中 ,由 国际 工作 委员 会 提出 的 面向 对 象 
的 CIDOC CRM 概念 参考 模型 ,用 本 体 方式 描述 了 文化 
遗产 工作 中 所 需要 的 概念 体系 及 关系 的 定义 和 形式 结 
构 ,以 达到 对 文化 遗产 的 共同 理解 。 该 模型 已 经 被 广 
泛 应 用 于 物质 与 非 物质 文化 遗产 领域 “" ,具有 较 好 
的 通用 性 。 依 据 CIDOC CRM 概念 模型 ,笔者 利用 先秦 
典籍 研究 文献 ,对 典籍 的 内 容 进行 梳理 ”" ,并 对 典 
籍 的 内 容 进行 聚 类 分 析 ( 参 见 本 专题 的 《春秋 时 期 社 
会 发 展 的 主题 挖掘 与 演变 分 析 》 一 文 ) ,确定 了 军事 、 
婚姻 、 外交、 政治 .民生 等 五 大 类 为 本 体 模型 的 核心 类 。 
在 此 基础 上 ,针对 先秦 典籍 的 特点 ,将 CIDOC CRM 中 
现 有 的 类 别 层 次 及 属性 层次 进行 针对 性 的 裁剪 和 扩 
充 , 进 一 步 界定 相关 术语 、 概 念 、 属 性 及 适用 对 象 范围 
在 典籍 这 一 具体 情境 中 的 确切 含义 。 在 军事 、 婚 姻 、 外 
交 政治 .民生 等 五 大 类 的 框架 下 ,将 典籍 中 蕴含 的 实 
物 物件 ,符号 物件 概念 物件 等 对 应 的 属性 关系 层次 体 
系 进行 分 面 归纳 ,构建 了 面向 典籍 的 本 体 模型 ”-” 。 
3.1.2 本 体 语 义 关系 的 抽取 技术 

学 者 们 利用 自然 语言 处 理 技术 及 机 器 学 习 技 术 ， 
探索 出 了 一 系列 本 体 语义 关系 抽取 的 方法 ”。 然 
而 ,先秦 典籍 的 语法 和 句法 与 现代 汉语 存在 较 大 差 
异 ,导致 目前 在 自然 语言 处 理 中 的 方法 和 技术 不 能 
直接 应 用 于 典籍 本 体 语 义 关 系 的 抽取 中 。 以 《 左 传 》 
为 例 , 先 秦 典 籍 具 有 人 句子 长 度 较 短 、 篇 章 语义 主题 不 
集中 等 问题 。 

语 料 资源 也 是 本 体 语义 关系 抽取 的 重要 基础 , 现 
代 汉 语 积累 了 大 量 的 标注 语 料 ,为 本 体 构建 英 定 了 良 
好 的 数据 基础 。 但 与 现代 汉语 相 比 , 略 于 古 汉 语 语法 
的 难度 以 及 数字 化 资源 数量 有 限 等 因素 ,公开 的 典籍 
标注 语 料 数量 极 少 ,这 就 给 面向 典籍 的 本 体 语义 关系 
抽取 带 来 了 极 大 的 难度 。 本 文 使 用 的 数据 来 源 是 南京 
师范 大 学 陈 小 荷 研究 团队 标注 的 《 左 传 》 语 料 ” ,该 语 
料 对 《 左 传 》 进 行 了 人 工分 词 和 词性 标注 ,是 目前 少 有 
的 先秦 高 质量 语 料 。 为 了 能 够 实现 对 《 左 传 》 中 语义 
关系 的 抽取 ,本 文 仍然 需要 对 其 进行 语义 标注 。 由 于 
先秦 语法 的 特点 ,增加 了 标注 的 工作 量 和 难度 。 


14 


ChinaXiv 合 作 期 干 


fc 


何 琳 ， 陈 雅 玲 ， 孙 珂 迪 . 面向 先秦 典籍 的 知识 本 体 构 建 技术 研究 [可 .图书 情 报 工作 ,2020,64(7) :13 -19. 


3.2 先秦 典籍 本 文 的 标注 方法 

本 体 语 义 关 系 抽取 从 本 质 上 而 言 ,是 抽取 蕴含 在 
文本 中 “ 主 谓 宾 " 三 元 组 关系 。 基 于 此 ,本 文 将 句法 和 
角色 结合 ,使 用 角色 BIO 标注 方法 对 典籍 文本 进行 标 
注 。 各 标签 含义 见 表 1 ,包括 施 事 者 (Agent)、 受 事 者 
(Patient)、 工具 (JInstrument)、 处 所 (Location ) 和 时 间 
(Time) 等 。 


表 1 BIO 标签 含义 


Do BX 
和 施 事 者 元 素 的 第 一 个 单词 
rE] 施 事 者 元 素 除了 第 一 个 以 外 的 其 他 单词 
人 施 事 者 元 素 的 唯一 单词 
Bb 受 事 者 元 素 的 第 一 个 单词 
受 事 者 元 素 除了 第 一 个 以 外 的 其 他 单词 
0F2 受 事 者 元 素 的 唯一 单词 
BY 主题 词 元 素 的 第 一 个 单词 
OO ™ 主题 词 元 素 除 了 第 一 个 以 外 的 其 他 单词 
CN or 主题 词 元 素 的 唯一 单词 
OO a 地 点 元 素 的 第 一 个 单词 
< IL 地 点 元 素 除了 第 一 个 以 外 的 其 他 单词 
0 时 间 元 素 的 唯一 单词 
品 时 间 元 素 的 第 一 个 单词 
CN 时 间 元 素 除了 第 一 个 以 外 的 其 他 单词 
©O 0-T 地 点 元 素 的 唯一 单词 
Oo 
> 


一 按照 角色 BIO 标注 方法 ,依据 先秦 本 体 的 语义 框 


此 左 传 》 进 行 标注 ,以 “ 仲 庆 父 请 伐 蛮 师 ” 为 例 ,对 


-| 
yy 


(V 
应 的 祭 注 数据 如 表 2 所 示 : 
人。 表 2 基于 BIO 标注 方法 的 文本 标注 示例 


nr 仲 庆 父 O-E1 
V 请 B-V 
V 伐 LV 
ns 讨 B-E2 
n 师 I-E2 
W 0 


根据 标注 的 结果 ,谓词 V 对 应 本 体 模型 中 的 属性 
类 型 ,实施 者 El 对 应 本 体 对 象 属性 ( Object Property ) 
的 定义 域 ( Domain ) , 受 试 者 E2 对 应 本 体 对 象 属性 的 
值 域 (Range) 。 因 此 ,对 于 本 体 构建 技术 而 言 ,获取 大 
量 角色 BIO 标注 结果 是 实现 本 体 实例 抽取 的 重要 基 
础 。 


4 ”面向 先秦 典籍 的 本 体 实例 获取 技术 研究 


研究 基于 规则 和 条 件 随机 场 相 结合 的 本 体 实 例 获取 方 
法 。 从 上 文 的 分 析 不 难 发 现 , BIO 标注 对 于 本 体 实例 
的 获取 至 关 重 要 ,而 BIO 标注 过 程 费时 费力 ,本 文 探索 
利用 条 件 随 机 场 方法 进行 典籍 语 料 标注 。 在 BIO 识别 
的 基础 上 ,利用 谓词 类 型 (下 文 称 为 “触发 动词 ” ) 的 语 
义 关系 识别 本 体 实例 的 语义 类 型 。 

4.1 基于 条 件 随 机 场 的 对 象 属性 关系 获取 

对 象 属性 关系 主要 是 两 个 类 别 之 间 的 属性 关系 ， 
分 别 对 应 了 典籍 BIO 标注 中 的 实施 类 和 受 事 类 ,而 属 
性 类 型 则 由 触发 词 的 语义 类 型 所 决定 。 因 此 ,为 了 获 
取 大 量 的 BIO 标注 结果 ,笔者 将 相关 角色 的 获取 看 作 
一 个 序列 标注 问题 ,然后 通过 条 件 随机 场 模型 获得 相 
关 的 角色 。 

条 件 随 机 场 模型 (CRF) 是 J. D. Lafferty 等 ”在 
2001 年 提出 的 条 件 概 率 分 布 模型 ,训练 拟 合 目标 为 P 
(YIX) , 指 是 在 输入 随机 变量 X 的 条 件 下 ,根据 特征 模 
板 构 建 特征 函数 ,作为 条 件 随 机 场 的 统计 数据 ,进行 训 
练 拟 合 ,预测 输出 随机 变量 Y 的 联合 概率 分 布 ,并 最 终 
找到 最 高 概率 的 最 佳 输 出 序列 。 在 CRF 算法 中 ,选择 
合适 的 特征 对 训练 结果 有 着 巨大 的 影响 。 特 征 分 为 状 
态 转移 矩阵 和 观察 序列 特征 。 表 3 为 训练 数据 中 的 一 
段 特 征 和 目标 标签 。 

表 3 训练 数据 示例 


特征 目标 标签 当前 词 
秋 0-T 
0 
师 O-El < current token > 


逮 O-V 
在 设 定 “0-E1” 为 当前 词 标 签 ,“ 师 ”为 当前 词 的 情 


况 下 , 表 4 根据 特征 模板 中 的 5 个 特征 做 出 特征 说 明 。 
表 4 ”特征 模板 说 明 


特征 模板 特征 状态 
U01:%x[ -1,0] 当前 词 的 前 面 第 一 个 词 
U02:%x[0,0] 炳 当前 词 
U03:%x[1,0] 偿 当前 词 的 后 面 第 一 个 词 
U04:%x[ -1,0]/%x[0,0] ,/ 了 师 前 一 个 词 到 当前 词 的 转移 概率 
B 0-E1/0 当前 词 标签 和 上 一 时 刻 标 签 


由 于 CRF 算法 已 经 较为 成 熟 ,本 文 不 再 歼 述 其 实 
现 过 程 ,不 同 特征 模板 的 识别 效果 将 在 实验 测评 部 分 
具体 展开 。 在 先秦 本 体 中 ,不 同类 别 属性 关系 由 触发 
词 的 语义 类 型 决定 。 在 获取 了 相应 的 角色 后 ,通过 名 


针对 先秦 典籍 在 句法 和 句 式 上 存在 的 特点 ,本 文 


子 所 在 的 触发 动词 的 语义 类 型 来 判别 出 角色 所 对 应 的 
本 体 属 性 类 型 。 
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4.2 触发 动词 的 识别 
通过 对 典籍 文本 的 分 析 ,不 难 发 现 句 子 中 触发 动 
词 的 语义 往往 决定 了 句子 的 语义 类 型 。 触 发 动词 对 于 
先秦 知识 本 体 中 属性 关系 的 识别 至 关 重 要 ,识别 出 触 
发 动词 的 语义 类 型 ,再 获取 其 对 应 的 BIO 角色 , 则 完成 
了 类 别 属性 关系 的 获取 。 

为 了 构建 本 体 属性 关系 对 应 的 触发 词语 义 类 型 ， 
本 文 首先 统计 先秦 文本 中 动词 词 频 , 根 据 先 秦 知识 本 
体 模型 中 的 类 别 属性 关系 ,通过 手工 的 方式 确定 初始 
的 触发 动词 集合 ,然后 使 用 BootStrapping 自 扩展 算法 
对 触发 词 集 进行 扩充 ,进一步 完善 触发 动词 集合 。 

BootStrapping 是 一 种 基于 统计 学 知识 的 非 监 督学 
习 机 器 学 习 算 法 。 它 是 在 建立 初始 的 核心 词 集 的 
基础 上 ,通过 统计 词 与 词 之 间 的 共 现 程度 ,计算 相关 
度 5 设 置 一 定 的 阔 值 ， 将 高 于 该 值 的 词 与 核心 词 集 归 为 
Ry 类 ， 并 加 入 到 核心 词 集中 ,以 此 迭代 训练 ,直到 核 
从 闻 集 不 再 改变 为 止 。 具体 算法 是 ,首先 以 tf-idf 值 作 
闫 驹 的 权重 ， 选择 权重 在 前 k 个 的 新 词 ,或 根据 任务 需 
求 本 工 确认 初始 主题 词 集 。 其 次 ,通过 评估 函数 T 计 
8 鱼 个 候选 词 的 分 值 ， 选择 前 列 加 入 主题 词 集 , 生 成 新 
的 所 题词 集 ， 并 且 不 断 迭 代 。 和 迭代 条 件 可 以 是 手工 设 
各 隐 渤 代 次 数 或 者 主题 词 集 个 数 等 。 
1 公式 (1) 
公式 (1) 中 的 s 和 w 分 别 表示 核心 词 集 和 某 候 选 
词 ,BP(w,s) 表示 某 候选 词 与 核心 词 集中 的 所 有 核心 词 
共 贡 频次 的 总 和 。 
4 基于 规则 的 本 体 数据 属性 关系 获取 

本 体 的 数据 属性 关系 (Data Property ) 不 涉及 两 个 
类 别 之 间 的 关系 ,如 人 物 的 基本 特征 ,包括 人 和 名、 性别 、 
国 别 和 官职 情况 等 。 根 据 对 先秦 文本 进行 分 析 , 不 难 
发 现 由 于 先秦 典籍 句 式 特点 ,使 得 这 些 基 本 属性 关系 
在 文本 中 呈现 出 一 定 的 规律 。 因 此 ,可 以 通过 编写 正 
则 表达 式 的 方式 提取 具有 固有 表述 规则 的 属性 。 在 手 
工 标注 的 基础 上 ,通过 对 样本 进行 分 析 ,排除 干扰 因素 
归纳 提炼 规则 ,然后 利用 正则 表达 式 抽取 这 些 属性 关 
系 。 具 体 的 识别 流程 如 下 : 

pe nr 的 词语 进行 组 成 字 和 对 应 位 
置 的 分 析 ,总 结 出 nr 的 词 与 字 的 联系 。 

i nr 的 词语 人 名 左右 词 的 词性 和 词 进 
行 统计 分 析 , 找 出 包含 基本 属性 关系 的 其 他 词汇 。 

(3) 根 据 以 上 分 析 , 获 取 人 基本 属性 关系 的 构建 
规则 。 


T=log,F(w,s) x 


(4) 根 据 规则 ,构建 正则 表达 式 识别 出 所 有 符合 
要 求 的 实例 。 
$5 实验 测评 
5.1 测评 方法 
5.1.1 实验 语 料 

笔者 选取 先秦 时 期 的 重要 典籍 4 左 传 》 作 为 实验 
语 料 呈 ,该 古 汉 语 语 料 包含 了 《 左 传 》 分 词 .词性 标注 
结果 。 在 此 基础 上 进行 BIO 角色 标注 ,标注 样 例如 表 
5 所 示 : 


表 5 标注 格式 样 例 


篇 章 文本 词性 分 词 标签 

甘 公 十 一 多 冬 , 询 伐 来 逆 共 姬 n 冬 OT 
w , 0 

nr 弃 侯 O-E1 

v 来 B-V 

v 逆 LV 

nr Et O-E2 
Ww 姬 0 


经 过 手工 标注 及 一 致 性 检测 ,各 标签 的 频次 统计 
如 表 6 所 示 : 
表 6 标签 -频次 


V El E2 L T 
B 484 231 249 38 145 
I 312 295 413 59 二 
0 2 800 1 746 1 626 446 293 


5.1.2 测评 指标 

本 次 实验 采用 准确 率 ( Precision) \ 召 回 率 (Recall)、 
F 值 (Fscore)3 个 评价 指标 作为 实验 结果 的 评价 指标 。 

准确 率 (P) = 正确 预测 的 标签 个 数 / 机 器 预测 的 
全 部 标签 个 数 * 100% 

召回 率 (R) = 正确 预测 的 标签 个 数 / 实 际 存在 的 
所 有 标签 个 数 * 100% 

F 值 (Fscore) =2* 正确 率 * 召回 率 /( 正 确 率 + 妊 
回 率 ) * 100% 
5.2 触发 动词 抽取 实验 

笔者 对 《 左 传 》 全 文 的 动词 进行 统计 分 析 , 采 用 
Bootstraping 迄 代 方法 进行 触发 词 的 获取 。T2 - 婚 娶 
( Marriage ) T3 - 生育 (Bear) 、T6 - 驻守 (Garrison)、T7 
一 功 伐 (Attack) 、T8 -会 盟 (Alliance) 、T9 -政治 (Poli- 
tics) .E67 - 诞生 (Birth) .E69 -死亡 (Death)、T12-- 仕 
途 (Career) 等 6 个 属性 类 型 对 应 的 触发 动词 集合 抽取 


结果 如 表 7 所 示 : 
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表 7 语义 类 型 -触发 词 对 应 表 
事件 类 主题 词 1 词 频 1 主题 词 2 词 频 2 闵 值 迭代 扩展 后 触发 词 集 数量 
1T7 - 功 伐 ( Attack ) 伐 601 败 228 0.56 7 [' 伐 ' ,“ 败 ; , “ 假 道 ',' 报 ' ,“ 策 '…] 491 
有 改 444 死 362 0.5 5 [' 首 ',' 死 , 抉 ',“ 朽 ',' 缕 ',' 弄 '] 6 
T8 -会 盟 (Alliance) 盟 284 会 254 0.5 5 [' 盟 ' ,会 ' , “时” ,' 谋 ’] 4 
TI12 - 仕途 ( Career) 奔 255 为 641 0.5 5 [“ 奔 “为 ",“ 御 戎 ” ] 3 
Te -政治 (Politics) 立 317 i 230 0.5 5 Le | 2 
T2 - 婚 亡 (Mariage) 聘 23 0.5 5 [' 聘 ', ‘也 ’] 2 
5.3 基于 规则 的 数据 属性 关系 的 识别 测评 表 9 人 名 左右 词性 频次 
按照 4.3 节 中 的 规则 识别 与 匹配 流程 ,对 实验 语 词性 词性 说 明 频次 
料 中 人 物 相关 语 料 进行 规则 提取 实验 ,具体 实验 结 左边 词 * 7 63 
v 动词 2 887 
如 下 : 请 地 名 585 
(1) 对 词性 为 “mr" 的 词 本 身 进行 分 析 。 由 表 8 可 介 加 56 
、 人 过 人 二 n 普通 名 词 524 
羽 看 出 ,“ 子 "和 “ 公 " 都 是 左右 的 高 频 词 。“ 子 "在 左 侧 ee 
用 寻 柄 
取 痪 于 先秦 人 物 的 取 各 方式 ,在 右 侧 主要 是 因为 古代 . 
SF ”表示 对 人 的 尊称。“ 公 ”作为 单字 ,经 常 代表 君 右边 记 7 动词 037 
中 se Ve » 到 下 Ww 标点 2 895 
当 在 左 侧 时 常 以 “公子 "出 现 ,在 右 侧 时 常 表示 ， 
。 除 了 这 两 个 字 外 , 左 侧 字 常 有 国家 的 名 称 , 右 侧 u 助词 714 
2 at A e p 介词 578 
竺 够 有 家 族 辈分 的 名 称 。 | 人 
表 8 人 名 首尾 字 频 网 
CN 频次 右 频次 | 
OF 至 To 表 10 人 名 左 侧 词 频 
CN 公 493 公 1 097 ns 频次 n 频次 
~ 得 327 伐 713 从 132 竹 47 
RE 326 氏 615 部 95 弟 27 
> 手 273 伯 494 楚 85 令 24 
[ov 是 256 叔 241 齐 68 公子 0 
人 起 252 到 198 宋 65 大 夫 20 
ae 区 231 探 196 本 24 先 君 19 
楚 206 父 170 本 23 行人 14 
OO. 是 陈 16 夫人 13 
> \ 一 | 、 » 一 草 上 大 子 性 
(2) 对 词性 为 “nr” 的 词语 左右 边界 词 进行 统计 分 周 10 君 11 
析 。 如 表 9 所 示 ,w 代表 标点 符号 ,v 是 动词 ,p 是 介 四 了 
词 ,都 不 属于 人 物 名 称 提 取 的 有 效 组 成 部 分 。 而 地 名 表 11 正则 匹配 示例 
ns 和 普通 名 词 n, 可 以 和 人 名 组 成 人 物 名 称 , 是 规则 获 正则 表达 式 匹配 结果 
取 的 重要 信息 线索 词 。 ([* J #7 /ns10,1}) 10,21[* J #7 /nr’ 姜 氏 /mr 


接 下 来 ,对 人 名 左边 界 词性 为 ns 和 n 的 词 进行 分 
析 , 从 表 10 可 以 看 出 词性 为 ns 的 词性 一 般 都 是 国家 
的 名 称 ,而 n 一 般 是 职位 和 家 庭 等 词 。 

(3) 根 据 上 文 的 分 析 , 找 到 人 物 名 称 的 构建 规则 : 
[国家 /身份 ] + [人 名 ]。 然 后 编写 设计 正则 表示 式 进 
行 提取 ,匹配 结果 见 表 11。 

(4) 由 上 一 步 的 匹配 结果 可 以 看 出 ,识别 出 来 的 
结果 的 最 后 一 个 词 , 即 为 人 名 。 如 果 检 索 结 果 只 有 一 
个 词 且 词 头 是 国家 名 ,那么 此 国家 名 即 为 该 人 物 所 属 


司空 /n 无 骇 /nr 
部 /ns 公子 忽 /nr 
放 /ns 东宫 /jn 得 臣 /nr 


国 别 。 如 果 词 尾 是 “ 公 "“ 侯 ”“ 伯 ” ,代表 该 人 是 君王 ， 
且 性 别 为 男 ;如 果 是 “ 氏 ”, 则 判断 性 别 为 女 。 根 据 以 
上 规则 ,统计 结果 见 表 12。 

(5) 将 基于 规则 的 抽取 结果 反馈 到 语 料 当 中 , 进 
行 半 监 督 式 的 标注 学 习 , 补 充 从 错误 中 学 习 的 新 规则 。 
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表 12 基于 规则 的 匹配 结果 


text E21 -人 物 T14 -性 别 T16 -职位 TI15 - 国 别 
高 得 /or 高 荟 

部 子 元 /nr 部 子 元 部 
首 景 公 人 mr 首 景 公 月 首 

克 氏 /nr 攀 氏 女 
楚 /ns 令 尹 /n 子 重 /nr 子 重 令 尹 楚 

命 大 夫 /n 士 藏 /mr 士 套 命 大 夫 

眶 /ns 冠 氏 /nr 冠 氏 女 得 


实验 结果 如 表 13 所 示 , 从 表 13 中 可 以 看 出 ,通过 规则 
匹配 后 的 了 值 性 别 最 高 ,官职 信息 最 低 。 通 过 对 错误 
数据 进行 分 析 , 主要 是 有 些 人 物 信息 描述 复杂 ,如 果 都 
要 一 一 添加 到 规则 里 ,会 导致 规则 过 于 郊 余 且 针对 性 
太 强 。 因 此 ,在 召回 率 和 准确 率 之 间 存 在 较 强 的 制约 
和 动 ,如 何 泛 化 抽取 规则 值得 进一步 研究 。 


多 
| 表 13 基于 规则 的 实验 结果 评估 
La = Bs 
一 标签 准确 率 (% ) 召回 率 (%) F 值 (%) 
| 二 4 -性 别 98.01 98.01 98.01 
Hs - 国 别 89.74 97.76 93.58 
DD 
Evad6 - 只 位 83.48 96.23 89.40 


5@ 基于 条 件 随机 场 的 对 象 属性 关系 的 识别 测评 
ON 对 经 过 触发 词 集 第 选 后 的 文本 ,使 用 条 件 随 机 场 
算 兹 进行 角色 识别 。 本 实验 设计 了 3 个 模板 进行 试验 
允 耻 , 使 用 如 下 模板 进行 训练。 
写 模 板 一 :设置 左右 为 1 的 窗口 ,只 使 用 词 特征 进行 
训 纸 . 
〇 模板 二 :在 模板 一 的 基础 上 加 上 词性 特征 。 
模板 三 ;在 模板 二 的 基础 上 加 上 词 与 词性 之 间 的 
关系 特征 。 
模板 四 :在 模板 三 的 基础 上 加 上 词 的 位 置 特征 。 
从 表 14 的 实验 结果 中 可 以 看 出 ,模板 二 加 入 
词性 特征 后 测试 结果 有 了 显著 的 提升 。 模 板 三 中 
加 入 词 与 词性 之 间 的 关系 特征 ,识别 结果 有 一 定 的 
提升 。 加 上 位 置信 息 后 的 模板 四 能 有 效 提升 识别 
效果 。 因 此 ,选择 特征 模板 四 作为 BIO 角色 识别 的 


最 终 模 板 。 
表 14 不 同 特 征 模板 的 识别 效果 
特征 模板 准确 率 ( % ) 召回 率 (% ) F 值 (% ) 
模板 一 68.25 76.40 72. 10 
模板 二 74.94 90.38 81.94 
模板 三 75.68 89.79 82. 13 
模板 四 83.28 85.13 84. 19 


模板 四 的 各 类 标签 的 测试 结果 如 表 15 所 示 。 其 

中 0-V、.O-E1 0-E2 .0-L.O-T、B-EI .LEI 的 下 值 均 在 

80% 以 上 。 通 过 对 错误 数据 进行 分 析 , 发现 单字 词 的 

识别 准确 率 高 ,而 双 字 词 及 多 字 词 识别 的 准确 率 较 低 。 

这 是 由 于 古 汉 语 中 单字 词 居多 .训练 样本 分 布 不 足 ， 
此 ,可 以 尝试 扩大 训练 数据 集 来 提升 实验 结果 。 
表 15 基于 模板 四 的 本 体 实 例 抽取 实验 结果 


实体 标签 准确 率 ( % ) 召回 率 (%) F 值 (%) 
B-L 75.00 40. 00 52. 17 
I-L 83.33 43.48 57.14 
LV T7133 67.56 69.40 
B-V T7126 68.51 69.86 
工 E2 T7113 69.81 70.48 
B-E2 71.43 74.26 72. 82 
0O-L 73.91 77.78 75. 80 
O-E2 83.96 80.44 82.16 
IL-El 86.75 78.26 82.29 
O-V 353.07 84.74 84.90 
B-El 91.67 82.50 86. 84 
O-E1 86.92 87.30 87.11 
O-T 96.52 94.87 95.69 
B-T 96.36 96.36 96.36 
I-T 97,22 98.59 97.90 
6 结语 


本 文 以 《 左 传 》 文 本 为 例 ,在 构建 了 针对 典籍 文本 
内 容 的 本 体 模型 的 基础 上 ,探索 针对 先秦 典籍 文本 的 
本 体 自动 构建 方法 与 技术 。 结 合 先秦 典籍 文本 的 特 
点 ,本 文 探讨 了 基于 规则 和 条 件 随 机 场 相 结合 的 本 体 
实例 自动 获取 方法 ,通过 实验 表明 ,本 文 所 提出 的 方法 
能 够 较 好 地 从 先秦 典籍 中 抽取 本 体 实例 。 该 本 体 的 构 
建 能 够 较为 全 面 地 描述 春秋 社会 的 人 物 .事件 相关 信 
息 ,帮助 研究 者 从 线性 的 文本 信息 中 挖掘 隐 性 知识 。 

然而 本 文 所 提出 的 本 体 构 建 方法 仍然 还 存在 不 足 
之 处 。 一 方面 是 触发 动词 的 获取 ,未 来 可 以 通过 外 部 
词典 辅助 的 方式 提高 触发 词 获取 的 准确 率 与 召回 率 。 
男 一 方面 ,在 本 体 实例 抽取 的 过 程 中 ,只 选取 了 词 信 
息 .词性 信息 和 位 置信 息 。 在 今后 的 工作 中 ,可 以 通过 
提高 句法 分 析 的 精度 来 获取 更 多 的 特征 ,进一步 改善 
抽取 效果 。 同 时 ,也 可 以 对 如 何 利用 深度 学 习 技 术 提 
升 本 体 实 例 的 提取 效果 进行 探索 。 
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O Abstract: | Purpose/ significance | Tt is very helpful to build semantic ontology of Chinese ancient books for tex- 
ting mining and text analysis of China history. However, there are lots of differences between ancient and modern 
Chinese in syntactic structure. The difference makes a lot of difficulties in Ontology Building of Chinese ancient 
books. | Method/ process | This paper focused on ontology building methods of ancient Chinese books based on Nat- 
ural language processing ( NLP) technique. We designed the ontology model based on CIDOC CRM which is an in- 
ternational standard for the description of cultural heritages. Then we gave a solution to extract instances of the ontol- 
ogy automatically which is a hybrid method of regulation extraction and CRFs recognition based on the syntactic struc- 
ture of Chinese ancient books. At last, we did an examination using one of Chinese ancient books called Zuo Zhuan. 
| Result/ conclusion | The experiment results show that our method can improve the extraction precision of Ontology 
instances, which can enhance the efficiency of ontology construction from Chinese ancient books. This paper got 93% 
F-score on the testing of regular-based method, and 82.51% 上 -score on CRFs method using the best feature tem- 
plate. It also finds that it is important to use the characters of the position and part-of-speech of words to enhance the 
extraction of ontology instances in our methods. 

Keywords: pre-Qin of Chinese ancient books Zuo Zhuan Ontology building CRFs Regulation matching 
method 
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